#consultas agrupadas

MiniMax Sparse Attention: Eficiencia en Contextos Largos

Atención dispersa para contextos de 1M tokens: MiniMax Sparse Attention reduce cómputo 28x y acelera prefill 14x y decoding 7x en GPUs H800.